Celem analizy było zbadanie właściwości materiałów wykorzystywanych w tworzeniu baterii.
library(skimr)
library(corrplot)
library(GGally)
library(dplyr)
library(plotly)
library("Hmisc")
library(mlbench)
library(caret)
library(rlang)
library(knitr)
library(DT)
library(dplyr)
library(ggplot2)
library(gridExtra)
library(here)
library(tidyverse)
library(scales)
W celu zilustrowania zawartości zbioru danych, wyświetlono kilka pierwszych wierszy zbioru, aby zaprezentować strukturę tabeli, nazwy zmiennych oraz przykłady wartości, które one przyjmują.
W poniższej tabeli przedstawiono znajdujące się w zbiorze atrybuty oraz ich definicje.
| Atrybut | Opis |
|---|---|
| Battery ID | Identyfikator baterii. |
| Battery Formula | Wzór chemiczny materiału baterii. |
| Working Ion | Główny jon, który odpowiada za transport ładunku w baterii. |
| Formula Charge | Wzór chemiczny materiału baterii w stanie naładowanym. |
| Formula Discharge | Wzór chemiczny materiału baterii w stanie rozładowanym. |
| Max Delta Volume | Zmiana objętości w % dla danego kroku napięcia za pomocą wzoru : max(charge, discharge)/min(charge, discharge) -1. |
| Average Voltage | Średnie napięcie dla poszczególnego kroku napięcia. |
| Gravimetric Capacity | Pojemność grawimetryczna, czyli ilość energii na jednostkę masy (mAh/g). |
| Volumetric Capacity | Pojemność wolumetryczna, czyli ilość energii na jednostkę objętości (mAh/cm³). |
| Gravimetric Energy | Gęstość energii w odniesieniu do masy baterii (Wh/kg). |
| Volumetric Energy | Gęstość energii w odniesieniu do objętości baterii (Wh/L). |
| Atomic Fraction Charge | Udział atomowy składników w stanie naładowanym. |
| Atomic Fraction Discharge | Udział atomowy składników w stanie rozładowanym. |
| Stability Charge | Wskaźnik stabilności materiału w stanie naładowanym. |
| Stability Discharge | Wskaźnik stabilności materiału w stanie rozładowanym. |
| Steps | Liczba odrębnych kroków napięcia od pełnego naładowania do rozładowana, oparta na stabilnych stanach pośrednich. |
| Max Voltage Step | Maksymalna bezwzględna różnica między sąsiednimi krokami napięcia. |
Zbiór danych zawiera 17 atrybutów i 4351 rekordów.
Suma brakujących wartości w zbiorze: 0.
| Liczba brakujących wartości | |
|---|---|
| Battery.ID | 0 |
| Battery.Formula | 0 |
| Working.Ion | 0 |
| Formula.Charge | 0 |
| Formula.Discharge | 0 |
| Max.Delta.Volume | 0 |
| Average.Voltage | 0 |
| Gravimetric.Capacity | 0 |
| Volumetric.Capacity | 0 |
| Gravimetric.Energy | 0 |
| Volumetric.Energy | 0 |
| Atomic.Fraction.Charge | 0 |
| Atomic.Fraction.Discharge | 0 |
| Stability.Charge | 0 |
| Stability.Discharge | 0 |
| Steps | 0 |
| Max.Voltage.Step | 0 |
Suma duplikatów: 0.
Zbiór danych nie zawiera brakujących wartości ani duplikatów, więc dane nie wymagają czyszczenia.
Zbiór zawiera:
- kolumny znakowe: 2,
- kolumny numeryczne: 11,
- kolumny logiczne: 0
W tej części zostanie przeprowadzona analiza wartości atrybutów w zbiorze danych. Celem tej analizy jest zrozumienie rozkładu, zmienności oraz kluczowych cech poszczególnych atrybutów, co pozwoli na lepszą interpretację danych. Analiza obejmie różne metody wizualizacji, takie jak histogramy, wykresy gęstości oraz wykresy pudełkowe, które umożliwią szybkie wychwycenie istotnych trendów, wartości odstających oraz charakterystyki rozkładu danych.
Sekcja obejmuje wizualizację rozkładów wartości dla atrybutów
numerycznych. Po lewej stronie znajduje się histogram, który ilustruje
częstość występowania różnych wartości atrybutu przyporządkowanych do
określonej liczby przedziałów. Pomarańczowy kolor reprezentuje linię
gęstości rozkładu (tzw. density plot). Wykres gęstości jest używany do
wizualizacji kształtu rozkładu danych, pozwalając na lepsze zrozumienie
jego formy w porównaniu do histogramu. Na wykresie znajduje się również
czerwona linia pionowa, oznaczająca średnią wartość atrybutu, co pozwala
na szybką ocenę jego centralnego położenia.
Po prawej stronie znajduje się wykres pudełkowy (tzw. boxplot), który
wizualizuje rozproszenie wartości i pozwala na identyfikację wartości
odstających.
Błąd w poleceniu 'Summary.factor(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, ':
‘min’ nie ma sensu dla czynników
Większość rozkładów jest prawoskośna, co oznacza, że większość większość wartości jest mniejszych niż średnia.
Tabela przedstawia mediany wartości atryburów numerycznych, dla poszczególnych grup głównego jonu transportującego ładunek (Working Ion).
Na przedstawionym wykresie zaprezentowano rozkład głównych jonów
używanych do transportu ładunku w bateriach. Wyraźnie dominuje lit (Li),
który występuje znacznie częściej niż inne jony tj. prawie 2500 razy.
Sugeruje to powszechne zastosowanie technologii opartych na
litowo-jonowych rozwiązaniach, co jest zgodne z ich szerokim
wykorzystaniem w przemyśle elektroniki i magazynowania energii.
Szczególną zaletą baterii litowo-jonowych jest wysoką gęstość energii.
To znaczy, że mogą magazynować dużą ilość energii przy niewielkich
rozmiarach i niskiej wadze, co czyni je doskonałym rozwiązaniem dla
przenośnych urządzeń, takich jak laptopy i tablety (“Litowo-Jonowe a Litowo-Polimerowe: Szczegółowe
Porównanie” 2024). W zestawieniu pierwiastków lit plasuje
się na drugim miejscu pod względem grawimetrcznej gęstości energii,
zaraz za wapniem.
Pozostałe jony, takie jak wapń (Ca), magnez (Mg), i cynk (Zn), również
znajdują zastosowanie, ale w znacznie mniejszym zakresie. Obecność jonów
takich jak sód (Na) i potas (K) mogą wskazywać na badania nad
alternatywami dla litu, jednak ich zastosowanie jest obecnie
ograniczone.
Poniżej znajdują się interkatywne wykresy pudełkowe dla każdej zmiennej numerycznej w zbiorze danych z podziałem na główne jony. Wykresy te umożliwiają eksplorację rozkładu wartości, identyfikację potencjalnych wartości odstających oraz porównanie zmienności w każdej zmiennej dla poszególnych jonów.
| Formula.Charge | total |
|---|---|
| MnO2 | 49 |
| TiO2 | 47 |
| VO2 | 46 |
| CrO2 | 45 |
| CoO2 | 43 |
| NiO2 | 41 |
| FeO2 | 36 |
| FePO4 | 26 |
| WO2 | 25 |
| CoPO4 | 24 |
| MnP2O7 | 22 |
| MnPO4 | 22 |
| VF5 | 22 |
| CoP2O7 | 20 |
| FeP2O7 | 20 |
| V2OF5 | 20 |
| WO3 | 20 |
| MoO2 | 19 |
| V2O5 | 19 |
| VPO5 | 18 |
| CrP2O7 | 17 |
| MnFeCo(PO4)3 | 17 |
| VP2O7 | 17 |
Wykres przedstawia liczbę wystąpień różnych wzorów chemicznych materiałów baterii w stanie naładowanym. W zbiorze jest 2096 różnych wzorów chemicznych materiałów baterii w stanie naładowanym. Najliczniejszymi są MnO2, TiO2, Vo2, CrO2, NiO2, FeO2.
Wykres przedstawia liczbę wystąpień różnych wzorów chemicznych materiałów baterii w stanie rozładowanym. W zbiorze jest 3173 różnych wzorów chemicznych materiałów baterii w stanie rozładowanym. Najczęściej występujące wzory to LiVOF11, Li2O5F5, LiFePO4, LiCoPO4. Znaczna większość najczęściej występujących wzorów zawiera cząsteczkę litu.
Poniższa macierz korelacji ilustruje współczynniki korelacji Pearsona dla wybranych atrybutów. Kolory kafelków reprezentują siłę oraz kierunek korelacji. Odcienie niebieskiego wskazują na dodatnią korelację, a odcienie czerwonego na ujemną.
Najwyższy wspolczynnik korelacji wystepuje pomiedzy
parami atrybutów:
- Gravimetric Energy i Volumetric Energy - 0.93
- Gravimetric Capcity i Volumetric Capacity -
0.86
- Stability Charge i Stability Discharge - 0.80
- Gravimetric Capacity i Atomic Fraction Discharge - 0.68
- Average Voltage i Gravimetric Energy - 0.67
Wykres przedstawia zależność między gęstością energii wolumetryczną (Wh/L, energia na jednostkę objętości) a grawimetryczną (Wh/kg, energia na jednostkę masy), gdzie widoczna jest silna korelacja dodatnia między tymi parametrami. Gęstość energii jest kluczowym wskaźnikiem wydajności baterii - im wyższa wartość, tym więcej energii może być zmagazynowane w danej objętości lub masie baterii, co jest szczególnie istotne w zastosowaniach mobilnych, takich jak pojazdy elektryczne czy urządzenia przenośne. Większość badanych materiałów skupia się w zakresie do 2000 Wh/kg i 7500 Wh/L, choć występuje kilka obiecujących wyjątków o wyższych parametrach, które mogą stanowić potencjalne kierunki rozwoju nowych, wydajniejszych baterii.
Wykres przedstawia zależność między pojemnością wolumetryczną (mAh/cm³, ilość ładunku na jednostkę objętości) a grawimetryczną (mAh/g, ilość ładunku na jednostkę masy) materiałów, gdzie pojemność grawimetryczna określa ile energii można zmagazynować w danej masie materiału, a wolumetryczna - ile w danej objętości, co ma kluczowe znaczenie przy projektowaniu baterii o różnym przeznaczeniu. Współczynnik korelacji 0.86 wskazuje na silną zależność między tymi parametrami, choć nie tak silną jak w przypadku gęstości energii. Na przykład, materiał o wysokiej pojemności grawimetrycznej może być lekki, ale zajmować dużo miejsca, podczas gdy materiał o wysokiej pojemności wolumetrycznej może być cięższy, ale bardziej kompaktowy (“Co Warto Wiedzieć o Ogniwach Litowo‑jonowych?” 2024).
Wykres przedstawia zależność między stabilnością materiału w stanie naładowanym (Stability Charge) a stabilnością w stanie rozładowanym (Stability Discharge), ze współczynnikiem korelacji 0.8 wskazującym na silną dodatnią zależność. Stabilność materiału jest kluczowym parametrem określającym, jak dobrze materiał zachowuje swoją strukturę i właściwości podczas cykli ładowania i rozładowania - im niższa wartość, tym materiał jest bardziej stabilny i bezpieczny w użytkowaniu. Większość badanych materiałów skupia się w zakresie niskich wartości (0-2) dla obu parametrów, co jest pożądane, natomiast punkty odstające o wyższych wartościach (powyżej 4) mogą wskazywać na materiały problematyczne, które mogą być mniej odpowiednie do zastosowań w bateriach ze względu na potencjalną niestabilność.
Wykres przedstawia zależność między pojemnością
grawimetryczną (Gravimetric Capacity, mAh/g) a udziałem
atomowym w stanie rozładowania (Atomic Fraction Discharge).
Można zaobserwować umiarkowanie silną dodatnią zależność, co potwierdza
współczynnik korelacji wynoszący 0.68. W miarę wzrostu pojemności
grawimetrycznej, udział atomowy w stanie rozładowania zwiększa się,
osiągając wartość maksymalną bliską 1.0.
Kolor punktów reprezentuje wartość Atomic Fraction Discharge, gdzie
jaśniejsze kolory wskazują na niższe wartości, a ciemniejsze na wyższe.
Dane wskazują, że większość obserwacji znajduje się w zakresie niskiej
pojemności grawimetrycznej (<1000 mAh/g), a dla wartości powyżej 2000
mAh/g zależność staje się nieliniowa. Sugeruje to, że materiały o
wyższej pojemności grawimetrycznej mają tendencję do osiągania wyższych
udziałów atomowych w stanie rozładowania.
Wykresy przedstawiają zależności między średnim napięciem (Average Voltage, V) a gęstością energii grawimetrycznej (Gravimetric Energy Density, Wh/kg) dla różnych wartości kroku napięcia. Dane wskazują, że wraz ze wzrostem średniego napięcia zwiększa się gęstość energii grawimetrycznej. Większość danych skupia się w zakresie niskich wartości napięcia (<10 V), co sugeruje, że materiały o wyższym napięciu są mniej liczne, ale wykazują większą efektywność energetyczną.
Stability Charge
Stability Discharge
Stabilność w stanie naładowanym:
Stabilność w stanie rozładowanym:
Szczególną uwagę przyciąga lit, który charakteryzuje się największą liczbą obserwacji i jednocześnie zajmuje pośrednie miejsce w zestawieniu pod względem wartości wskaźników stabilności.
| Working.Ion | max_data_volume_mean | max_data_volume_median | max_data_volume_min | max_data_volume_max | total |
|---|---|---|---|---|---|
| Li | 0.0507457 | 0.0335753 | 0.0000182 | 5.1580521 | 2440 |
| Ca | 0.1182812 | 0.0659500 | 0.0000784 | 10.8286680 | 435 |
| Cs | 0.1457824 | 0.0934072 | 0.0051639 | 0.6664421 | 33 |
| Na | 0.1705933 | 0.0452568 | 0.0000904 | 8.0250126 | 309 |
| Zn | 0.2727003 | 0.0498474 | 0.0000162 | 8.0927418 | 366 |
| Y | 0.2960365 | 0.1421733 | 0.0022635 | 4.3714992 | 93 |
| Al | 0.8876411 | 0.0526704 | 0.0001877 | 18.2361563 | 95 |
| K | 0.9206571 | 0.0763010 | 0.0000830 | 16.9232363 | 107 |
| Rb | 1.9653227 | 0.1017021 | 0.0031613 | 20.6965362 | 50 |
| Mg | 2.3445669 | 0.0472186 | 0.0002650 | 293.1932179 | 423 |
Najniższą zmianą napięcia charakteryzuje się lit (Li), a najwyższą itr (Y).
Gęstość Grawimetryczna
| Working.Ion | gravimetric_energy_mean | gravimetric_energy_median | gravimetric_energy_min | gravimetric_energy_max | total |
|---|---|---|---|---|---|
| Ca | 548.2309 | 490.3278 | -212.66060 | 1950.8674 | 435 |
| Li | 492.9541 | 450.0437 | -583.54584 | 5926.9497 | 2440 |
| Y | 491.4391 | 382.3745 | 1.62500 | 1766.0037 | 93 |
| Na | 379.5333 | 354.0919 | -551.08126 | 1754.5647 | 309 |
| Mg | 392.5984 | 311.1856 | -237.08796 | 2752.4597 | 423 |
| Al | 486.4731 | 260.6793 | -153.46440 | 2862.7204 | 95 |
| K | 276.6333 | 233.1158 | -534.63162 | 1553.3791 | 107 |
| Zn | 195.1132 | 165.4172 | -357.54640 | 989.7295 | 366 |
| Rb | 170.4757 | 163.3553 | -373.40462 | 1033.5308 | 50 |
| Cs | 188.4780 | 139.4619 | -15.32234 | 729.0644 | 33 |
Pojemność Grawimetryczna
Zarówno rubid (Rb) jak i Cez (Cs), które wypadają najgorzej pod względem energii i gestości grawimetrycznej są najrzadziej wykorzystywanymi jonami głównymi.
Poniższy wykres przedstawia zależność między liczbą obserwacji dla najczęściej występujących Wzorów chemicznych materiałów baterii w stanie naładowanym a medianą stabilności w stanie naładowanym. Dla każdego wzoru obliczono miary statyczne, które wyświetlają się po najechaniu na punkt.
Jako zmienną celu obrano pojemność grawimetryczną.
//TODO delete
Random Forest
3264 samples
11 predictor
No pre-processing
Resampling: Cross-Validated (2 fold, repeated 5 times)
Summary of sample sizes: 1633, 1631, 1632, 1632, 1632, 1632, ...
Resampling results across tuning parameters:
mtry RMSE Rsquared MAE
2 0.2446747 0.6656663 0.08814636
6 0.1820564 0.8036072 0.06937326
11 0.1834491 0.7999853 0.06828544
RMSE was used to select the optimal model using the smallest value.
The final value used for the model was mtry = 6.
Przygotowanie zbioru do trenowania
Ze zbioru usunięto atrybuty:
- ID - nie ma wpływu na zmienną celu - Battery.Formula - bardzo dużo
unikalnych wartości, więcej niż połowa rozmiaru zbioru, istnieje ryzyko
przeuczenia i nadmiernej segmentacji - Formula.Charge - podobnie jak
Battery.Formula - bardzo dużo unikalnych wartości - Formula.Discharge -
podobnie jak wyżej
Skalowanie i normalizacja zmiennych
── Data Summary ────────────────────────
Values
Name data_scaled
Number of rows 4351
Number of columns 12
_______________________
Column type frequency:
numeric 12
________________________
Group variables None
Df Sum Sq Mean Sq F value Pr(>F)
Battery.Formula 3300 118304814 35850 1.103e+26 <2e-16 ***
Residuals 1050 0 0
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Usunięcie zmiennych skorelowanych
[1] "Atomic.Fraction.Charge" "Volumetric.Capacity" "Max.Voltage.Step"
Call:
lm(formula = .outcome ~ ., data = dat)
Residuals:
Min 1Q Median 3Q Max
-7511.8 -367.2 -70.5 348.4 6268.0
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.712e+02 5.949e+01 -9.602 < 2e-16 ***
Max.Delta.Volume -1.633e+01 2.050e+00 -7.965 2.31e-15 ***
Average.Voltage 4.323e+02 8.926e+00 48.425 < 2e-16 ***
Volumetric.Capacity 1.301e+00 4.395e-02 29.589 < 2e-16 ***
Atomic.Fraction.Charge -3.943e+02 2.795e+02 -1.411 0.158
Atomic.Fraction.Discharge -1.775e+03 2.758e+02 -6.436 1.42e-10 ***
Stability.Discharge -1.524e+01 4.627e+01 -0.329 0.742
Steps 3.295e+02 4.106e+01 8.023 1.45e-15 ***
Max.Voltage.Step 1.977e+02 2.645e+01 7.475 1.01e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 847.6 on 3038 degrees of freedom
Multiple R-squared: 0.5662, Adjusted R-squared: 0.5651
F-statistic: 495.7 on 8 and 3038 DF, p-value: < 2.2e-16
RMSE Rsquared MAE
837.0274500 0.6022943 551.1305470
Call:
lm(formula = .outcome ~ ., data = dat)
Residuals:
Min 1Q Median 3Q Max
-7497.7 -361.8 -84.9 349.5 6351.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.541e+02 5.525e+01 -10.029 < 2e-16 ***
Max.Delta.Volume -1.724e+01 1.992e+00 -8.652 < 2e-16 ***
Average.Voltage 4.240e+02 7.984e+00 53.104 < 2e-16 ***
Volumetric.Capacity 1.249e+00 4.117e-02 30.333 < 2e-16 ***
Atomic.Fraction.Charge -7.329e+02 2.589e+02 -2.831 0.00468 **
Atomic.Fraction.Discharge -1.343e+03 2.499e+02 -5.374 8.26e-08 ***
Stability.Discharge 4.296e+01 4.315e+01 0.996 0.31953
Steps 3.091e+02 3.737e+01 8.271 < 2e-16 ***
Max.Voltage.Step 2.018e+02 2.515e+01 8.023 1.45e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 824.3 on 3038 degrees of freedom
Multiple R-squared: 0.5989, Adjusted R-squared: 0.5979
F-statistic: 567.1 on 8 and 3038 DF, p-value: < 2.2e-16
RMSE Rsquared MAE
892.295500 0.528967 568.000619
RMSE: 892.2955
Preprocessing danych obejmuje następujące kroki: - Usunięcie atrybutów, które nie mają wpływu na zmienną celu
[1] "Volumetric.Capacity" "Gravimetric.Energy" "Stability.Charge"
[1] 542
── Data Summary ────────────────────────
Values
Name data_cleaned
Number of rows 3809
Number of columns 12
_______________________
Column type frequency:
factor 4
numeric 8
________________________
Group variables None
Wyczyszczenie wartości odstających. Do identyfikacji outlierów wykorzystano metodę IQR. Usunięto rekordy, które posiadały wartości odstające na co najmniej 2 atrybutach. Zostało usuniętych 542 rekordów.
Normalizacja danych
── Data Summary ────────────────────────
Values
Name data_scaled
Number of rows 4351
Number of columns 12
_______________________
Column type frequency:
factor 4
numeric 8
________________________
Group variables None